LECTURE CRITIQUE D’ARTICLE 


FONDEMENTS 
DE DEVALUATION DES TESTS 

DIAGNOSTIQUES 


E n regie generate, I’objectif de revaluation d'un test diag- 
nostique est de mesurer la performance d’un nouveau test 
par rapport a un test de reference. En raison d’un developpe- 
ment plus recent, la methodologie pour evaluer les tests diag- 
nostiques est moins avancee que celle des essais cliniques. 

Cet article introduit les differentes phases de revaluation d’un 
test diagnostique et developpe les biais rencontres lors des etu- 
des de phase III qui tentent de repondre a la question suivante : 
« Parmi les sujets a risque, quelle est la precision du test ? », et 
presente les indices de performance des tests, indispensables a 
leur application clinique. 

Methodologie generate 

Plans experimental^ de revaluation 
du test diagnostique 

Les trois principaux types de plan experimental sont : 

- I’etude diagnostique cas-temoins pour les phases precoces 
d’evaluation (phase I et II) ; 

- I’etude transversale ou de cohorte sur un echantillon repre- 
sentatif de la population a risque pour mesurer la precision du 
test ; 

- I'etude randomisee pour mesurer son impact sur la sante. 

Phases de developpement 
du test diagnostique 

Cette evaluation comprend un plan de developpement com- 
plet avec differentes phases (de I a IV). 

La methodologie de revaluation des tests diagnostiques doit 
repondre a des questions precises a chaque phase de develop- 
pement clinique du test : 

- phase I : le test a-t-il des resultats differents chez les patients et 
chez les sujets sains ? 

- phase II : la maladie est-elle plus vraisemblable chez les sujets 
ayant un test positif que chez les sujets ayant un test negatif ? 
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La precision du test depend-elle des caracteristiques des 
patients et des sujets sains ? 

- phase III : parmi les sujets a risque, quelle est la capacite du 
test a distinguer les malades des non-malades ? 

- phase IV : I’examen diagnostique ameliore-t-il I’etat de sante 
des patients ? 

MaTtrise des biais (v. encadre) 

L'objectif de revaluation d'un test diagnostique est la mesure 
de sa precision dans un contexte clinique donne. Comme toute 
mesure, elle est sujette aux erreurs. Dans revaluation d’un test 
diagnostique, les biais les plus importants sont classes en trois 
categories : les biais de selection, de verification et d’interpre- 
tation. 

Parce que la methode experimentale utilisee pour evaluer la 
precision d’un test n’exclut pas un biais, il est utile de repeter les 
etudes de validation de phase III et d’utiliser les techniques meta- 
analytiques pour synthetiser les resultats et etudier I’heteroge- 
neite clinique et statistique observee. 

1. Biais de selection 

II est primordial que la population selectionnee corresponde le 
plus possible a la population dans laquelle le test va etre utilise de 
maniere courante. L’eventail de la population eligible (le « spectrum » 
en anglais) doit done etre predefini et decrit avec des criteres 
d’inclusion et d’exclusion precis et qui definissent le patient qui 
beneficiera potentiellement par la suite du test. 

Toutes les pathologies concernees, differents stades de gravite, 
des sous-groupes de patients avec des caracteristiques particu- 
lieres doivent etre inclus si necessaire. 

De plus, une description precise du parcours de sante du 
patient (envoye par le medecin referent ? consultation directe ?) 
doit etre rapportee. 

Enfin, le mode de selection des patients doit etre decrit, et les 
mesures prises afin d’eviter les biais de selection comme I’inclu- 
sion consecutive des patients doivent etre precisees. 
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2. Biais de verification 

Le biais de verification survient lorsque seuls les patients ayant 
des resultats positifs avec le nouveau test ont une probabilite plus 
elevee d’etre testes avec le test de reference que les patients 
avec des resultats negatifs, au maximum seuls les patients positifs 
sont testes. Cette pratique est frequente lorsque le test de refe- 
rence est invasif. 

Une verification complete des resultats de tous les patients testes 
avec le nouveau test par le test de reference evite le biais de veri- 
fication ( verification ou work-up bias en anglais). Les mesures prises 
pour eviter le biais de verification doivent etre clairement decrites 
dans I’article. Une description et une justification claires doivent 
permettre d’estimer le nombre et les raisons de deviation a ce 
principe. Cette information est utile pour la generalisation des 
resultats. 

3. Biais d’interpretation 

L’ interpretation des resultats du nouveau test et du test de 
reference doit etre effectuee de maniere independante et en insu 
par deux investigateurs differents afin d’eviter le biais d'interpre- 
tation ( expectation bias). 

Dans certains cas particulars, I’absence de I’insu est acceptable, 
mais cela doit etre justifie. 

Population etudiee 

Dans toute etude clinique, les individus etudies doivent etre 
definis avant la conduite de I’etude, dans le protocole, par les cri- 
teres d’inclusion et d’exclusion. Ces criteres definissent la popu- 
lation eligible. 

Dans revaluation du test diagnostique, ces criteres sont choi- 
sis avec I’objectif d’inclure des patients qui ont des caracteris- 
tiques proches de celles des patients chez qui le test va etre uti- 
lise apres validation. 

Par exemple, si le test doit etre generalise dans une population 
large pouvant etre atteinte d’une pathologie donnee, il doit etre 


etudie dans la plus grande population possible, incluant les ages 
extremes, les patients ayant une expression clinique moderee et 
severe de la maladie, les patients traites et non traites. De plus, si 
un test va etre utilise apres d’autres tests lors du parcours diag- 
nostique, son evaluation doit aussi etre effectuee au sein du 
meme parcours diagnostique. 

Test etudie et choix du test de reference 

Le test admis comme test de reference et/ou la methode utilisee 
pour classer les patients en malades ou non-malades doivent 
etre decrits de maniere precise et justifiee. 

Toutes les techniques utilisees pour le test de reference et le 
test etudie, la procedure de leur realisation doivent etre presen- 
tees : specifications techniques, unite de mesure, experience de 
I’experimentateur, moment ou les tests, nouveau et de reference, 
sont realises, position du patient, conditionnement du patient. 

Le seuil de positivite d’un test et sa justification sont a decrire. 
Si un seuil ne peut pas etre defini, I’etude de seuil avec une 
courbe ROC doit etre prevue. 

Analyse des resultats et calcul des effectifs 
necessaires 

Les resultats descriptifs sur les caracteristiques cliniques (patho- 
logies, comorbidites, traitements regus) et demographiques de 
la population etudiee doivent etre presentes en detail pour per- 
mettre au lecteur d’ identifier a qui le test pourrait beneficier. 

Le nombre de sujets eligibles, I'origine et le lieu du recrutement, 
le nombre d’inclus et d’exclus avec les raisons d’exclusion et de 
la non-realisation du (des) test(s), les incidents ou evenements 
indesirables survenus lors de I’etude, le delai entre la realisation 
du nouveau test et du test de reference et les resultats sur la 
concordance entre plusieurs evaluateurs doivent etre presentes 
et preceder la quantification de la precision du test. 


i Un rapport d’etude incomplet 


• Une etude a evalue I’ultrasonographie 
pour le diagnostic de la thrombose 
veineuse profonde chez les patients 
asymptomatiques, apres chirurgie 
orthopedique, ces patients sont a haut 
risque de developper des thromboses ; 

200 patients qui ont subi une operation 
de la hanche ont ete inclus. 
L’ultrasonographie a ete pratiquee avant et 
apres la chirurgie ; les resultats positifs ont 
ete confirmes par un veinogramme. 


• Dans cette etude, il existe un biais de 
selection potentiel. II n’est pas clairement 
indique comment les acteurs ont 
selectionne les patients et il n’est done pas 
possible de savoir a quelle population 
correspondent les patients inclus. Le 
meilleur moyen pour eviter un tel biais est 
que tous les patients eligibles soient inclus 
de maniere consecutive (selon I’ordre de 
consultation ou d’operation).Tous les 
patients n’ont pas eu les deux examens, 


seuls les resultats positifs ont ete 
confirmes par I'examen de reference (biais 
de verification). 

• Enfin, I'insu ne semble pas avoir ete 
respecte entre la personne qui interprete 
I’ultrasonographie et celui qui interprete 
la veinographie, cette information 
est absente dans I’article (biais 
d’interpretation). Dans ces conditions, 
les resultats d’une telle etude ne sont pas 
interpretables. 
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Les tableaux 2x2 permettant de calculer les differents indices 
de precision ainsi que leur intervalle de confiance (sensibilite, 
specificite, vraisemblance) doivent etre presentes. 

Si des sous-groupes de sujets et des seuils multiples ont ete 
predefinis, les resultats detailles pour ces sous-groupes doivent 
etre presentes. Si le test est quantitatif (dosage biologique par 
exemple) et qu’un seuil de positivite n’est pas encore identifies, 
une courbe ROC (v. infra) et la surface sous cette courbe doivent 
etre presentees. 

La concordance entre plusieurs observateurs doit etre decrite 
si elle n'a pas ete evaluee lors des phases plus precoces. 

L’analyse statistique doit decrire la methode de calcul des diffe- 
rents indices et de leur intervalle de confiance, de construction 
de la courbe ROC et de calcul de la surface sous cette courbe. 
Un calcul du nombre de sujets necessaires pour mesurer ces 
indices selon des hypotheses bien definies sur la precision atten- 
due est a presenter. Si I’etude prevoit de comparer plusieurs 
tests, une autre methode adaptee est a prevoir (difference atten- 
due, regression logistique). 

Performance d’un test diagnostique 

Les resultats du test peuvent etre positifs (« anormal » ou au- 
dela d’un seuil) ou negatif (« normal » ou en dega d'un seuil), et la 
maladie presente ou absente. Ces resultats peuvent etre repre- 
sents sous la forme d’un tableau 2 x 2 (v. tableau). Les indices 
de precision d’un test sont calcules a partir de ce tableau pour 
caracteriser la performance d’un test. 

Les indices de performance et leurs combinaisons 

La sensibilite (Se) est la probability d'avoir un test positif quand 
on est malade : a / (a + c) [v. tableau]. 

La specificite (Sp) est la probability d’avoir un test negatif quand 
on n’est pas malade : d / (b + d). 

La valeur predictive positive du test (VPP) est la probability d’avoir la 
maladie quand le test est positif : a / (a + b). 

La valeur predictive negative du test (VPN) est celle de ne pas avoir 
la maladie quand le test est negatif : d / (c + d). 


Le rapport de vraisemblance positif (en anglais likelihood ratio 
[LR]) est le rapport entre la probability d’avoir un test positif 
chez les sujets malades et celle d’avoir un test positif chez les 
sujets sains. Le rapport de vraisemblance positif est done LR(+) 
= (sensibilite) / (1 - specificite). Sa valeur varie entre 1 et I’infini. 
Un rapport de vraisemblance au-dela de 1 0 est considere 
comme important. II indique que lorsque le test est positif, 
la cote de la maladie avant d’avoir le resultat du test est multi- 
pliee par 10. 

Le rapport de vraisemblance negatif est le rapport entre la 
probability d’avoir un test negatif chez les sujets malades et 
celle d’avoir un test negatif chez les sujets sains LR(-) 
= (1 - sensibilitej/specificite. Un rapport de vraisemblance en 
dega de 0,1 est considere comme important, II indique que 
lorsque le test est negatif, la cote pretest de la maladie est 
divisee par 10. 

Le « diagnostic odds ratio » (DOR) : I’ocfcfe ratio ou le rapport des 
cotes est utilise pour quantifier les resultats de I’association entre 
un facteur de risque et la maladie dans les etudes cas-temoins. II 
represente la force de I'association entre le facteur de risque et la 
maladie. Ici, il pourrait etre utilise pour montrer la force de I'asso- 
ciation entre le resultat d'un test diagnostique et la maladie. Cet 
indice cherche a quantifier la performance d’un test par une 
seule valeur. Celle-ci n'est pas influencee par la prevalence, 
contrairement aux valeurs predictives. Le diagnostic odds ratio 
est le rapport entre la cote d’etre malade (probability d’etre 
malade divisee par la probability de ne pas etre malade) lorsque 
le test est positif et la cote de ne pas etre malade lorsque le test 
est negatif. 

Done, DOR = (VP/FN)/(FP/VN) = ad/bc = [Se/(1- Se)]/[(1- 
Sp)/Sp] = LR+/LR- = [VPP/(1 — VPP)]/[(1 -VPN)/VPN] . 

La valeur du DOR varie de 0 a I'infini. Les valeurs hautes signi- 
fient une meilleure performance du test. La valeur = 1 signifie que 
le test n’a aucune valeur discriminante et une valeur > 1 que le 
test est plus souvent positif chez les malades que chez les sujets 
sains. Un DOR = 80 s’interprete de la fagon suivante : la cote 
d’etre malade est multipliee par 80 par rapport a la cote d’etre 
sain lorsque le test est positif. 
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La sensibilite et la specificite ne sont pas 
constantes pour un test donne 

Au contraire de ce que I’on trouve habituellement dans les 
ouvrages pedagogiques, la sensibilite et la specificite ne sont pas 
constantes. Ces variations peuvent etre imputees aux biais de 



Cet outil graphique a ete propose pour extrapoler directement les probability 
post-tests a partir des probability pre-tests sans passer par les cotes. 

II suffit de relier par une droite une probabilite pre-test et un rapport 
de vraisemblance, la prolongation du segment sur I'echelle droite indique 
la probabilite post-test. (Fagan TJ. Nomogram for Bayes theorem. N Engl J 
Med 1975;293:257). 

La fleche indique qu’en cas de detection de thrombose avec I’ultrasonographie 
avec un rapport de vraisemblance positif de 30, la probabilite pre-test de 
thrombose veineuse profonde en chirurgie orthopedique qui est en moyenne 
de 10 passe a 80. 


selection, d'interpretation, de verification, dont la maTtrise est 
differente d’une etude a I’autre, ou a I’imperfection du test de 
reference. 

Mais au-dela des variations d’ordre methodologique, sensibi- 
lite et specificite peuvent varier en fonction des caracteristiques 
des patients. 

Par exemple, Hilatkyetal. (Am J Med 1984;77:64-71) ont eva- 
lue les differents facteurs qui influenceraient la sensibilite et la 
specificite de I’electrocardiogramme d 'effort dans le diagnostic 
d’angine de poitrine versus la coronarographie comme test de 
reference. Leurs resultats suggerent que le type d’angine de poi- 
trine, I 'age des patients et le sexe influencent la sensibilite du test 
de maniere significative. 

Les valeurs predictives positive et negative 
ne peuvent pas etre calculees a partir 
du tableau 2x2 dans les etudes cas-temoins 

Le calcul des valeurs predictives a partir du tableau 2x2 
necessite de disposer d’un echantillon representatif de la popu- 
lation dans laquelle il est prevu d’utiliser le test. A partir d’une 
etude cas-temoins, il est possible de calculer la sensibilite et la 
specificite du test. Le calcul des valeurs predictives ou des pro- 
babilites post-test d’avoir la maladie passe par I'utilisation du 
theoreme de Bayes. 

Le theoreme de Bayes 

Ce theoreme stipule que la cote d’etre malade apres un test 
positif peut etre calculee en multipliant la cote d’etre malade 
avant le test par sa precision mesuree par le rapport de vraisem- 
blance (+). La prevalence de la maladie dans la population etu- 
diee permet de calculer la cote d’etre malade avant le test si elle 
est connue. La probabilite d’etre malade peut etre calculee a 
partir de la cote : 

probabilite d’etre malade (test +) = cote d’etre malade (test + ) 

1 + cote d’etre malade (test +) 

Les cliniciens (contrairement aux turfistes I) utilisent spontane- 
ment les probabilites et non les cotes : Fagan a propose un outil 
graphique permettant d’appliquer le rapport de vraisemblance 
directement aux probabilites sans passer par les cotes (v. figure). 

La courbe ROC 

La courbe ROC ( receiver operating characteristic) est un gra- 
phique reliant les points dont I’ordonnee represente la sensibilite 
et I'abscisse le complementaire de la specificite (1 -specificite) du 
test pour differents niveaux du seuil de positivite. Cette courbe 
est utilisee pour determiner la precision globale d’un test diag- 
nostique quantitatif et le seuil du test offrant les performances 
optimales dans le contexte de son utilisation. Un test de perfor- 
mance nulle a une courbe ROC confondue avec la diagonale bis- 
sectrice, et correspond a une surface de 0,5. La courbe ROC d’un 
test tres performant se rapproche de Tangle superieur gauche, ou 
sensibilite et specificite se rapprochent de 1 00 % (v. encadre 2). 
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2. Courbe ROC et seuil de decision diagnostique 


L’interet d’une courbe ROC pour definir le 
seuil en termes de taille de la tumeur pour 
exclure un cancer de I’endometre a I’aide de 
I’echographie endovaginale. La sensibilite et 
1 - specificite sont calculees pour differents 
diametres de tumeur detectee a 
I’echographie. Le clinicien peut privilegier la 
sensibilite ou la specificite pour choisir un 
seuil (d’apres Smith-Bindman, JAMA 
1998:280:1510-7) et en fonction de son 
souhait de detecter plutot les malades pour, 
par exemple, mettre en place un traitement 
efficace, ou de detecter les sujets sains pour 
eviter la mise en place d’un traitement 
potentiellement dangereux. Lorsque la 
sensibilite est tres elevee, un resultat negatif 
exclut la presence de la maladie. Lorsque la 
specificite est tres elevee, un resultat positif 
certifie la presence de la maladie (moyen 
mnemotechnique propose par D. Sackett 
dans « Clinical Epidemiology, Lippincot 



EMU Courbe ROC des performances de I’echographie endovaginale pour le diagnostic 
de cancer de I'endometre selon le diametre de I’image tumorale suspecte. 


Williams & Wilkins, 3 e edition, out pour rule out : exclure ; et SpPin, 

273-322, en anglais « SnNout», avec Sn avec Sp pour Specificity et P pour Positive 

pour Sensitivity et N pour Negative et et in pour rule in : confirme la maladie). 


Ethique et reglementation 

Toute pratique justifiee par I'accroissement des connaissances 
medicates, et comportant des actes ne s'inscrivant pas dans les 
soins habituels, est concernee par la loi sur la recherche biome- 
dicale, actualisation en 2004 et 2006 de la loi Huriet-Serusclat de 
1 988, suivant une directive europeenne de 2001 . Les principales 
consequences en sont : 

- I'obligation d'information des patients, sur I'inclusion dans le 
protocole de recherche et sur les risques specifiques du protocole ; 

- I'obligation de recueil du consentement ecrit ; notons que, d'a- 
pres le code de sante publique, ce consentement est obliga- 
toire pourtous les actes de soins, qu'ils soient a visee diagnos- 
tique ou therapeutique ; 

- I'engagement a informer les patients des progres apparus en 
cours d'etude et concernant la therapeutique evaluee ; 

- I'examen des protocoles par les comites de protection des 
personnes (CPP) ; 

- la necessity d'une assurance specifique contractee par le pro- 
moteurde P etude ; 

- enfin, la necessity d’obtenir un agrement pour effectuer une 
recherche hors des cadres de soins habituels.* 


L’auteur declare n’avoir aucun conflit d’interets concernant les donnees publiees 
dans cet article. 


Lecture critique d’article 


• Gueyffier F, Delahaye F. Applications 

des resultats de I’essai Clinique. Rev Prat 2009;59(2):241 -4. 

• Gueyffier F, Delahaye F. Fondements de I’essai Clinique 
randomise. Rev Prat 2009;59(1 ):95-7. 

• Gueyffier F. Lecture critique d’article : un pilier fondamental 
de la formation medicale moderne. Rev Prat 2009;59(1):20-4. 

(onglet References universitaires/Lecture critique d’article) 

Complements a Particle : Applications des resultats 
de I'essai clinique. 

Complements a Particle : Fondements de I’essai clinique randomise. 
Un lien vers le site du CNCI ; un autre plus direct vers son glossaire. 

Le sujet de lecture critique des epreuves blanches de decembre 2008 
(onglet References universitaires/ Epreuves blanches), avec ses 
annexes (correction, notation, fiche detaillee). 
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